помощью `Ргею 


ты Озеров _ 
ны [аб$ 


Не | Ненеова" ыы) 


` 2022 


® Что такое ВаКепоизе? 
е® Что такое Ргез® / Типо, как он устроен внутри, и при чем тут |аКепоизе? 


Очегбу Габ$ 


Онег у [аб5  седги$дажа 


® Разработка новых аналитических СУБД и да1а-тападетег\ систем для технологических стартапов 
по всему миру (стек — /ауа/С++, АрасНе Са|сКе, АрасНе Агго\м, Мех). 
Разработка российской аналитической платформы СеагизБата на основе Типо. 
Контрибьютим в Араспе Са|[сКе и Арасйе Аггом.. 


Аналитический стек 


| | Зрагк . | 
ЗПагед-поИп9 ЗПагед-по та ЗВагед ${огаде 
(Сгееприт) (С!скНои$е) 


(НОЕС, $3) 


Оа{а М/агепоизе — геа|-Ите/ад-Пос/ищегасйуе апа!уйс$, сотрще и Зогаде совмещены. 
Оа{а ГаКе — Баёсй ргосеззтад, сотрще и Зогаде разделены. 


Проблемы 


Ба{а М/агепои$е: 


Дублирование данных в проприетарных форматах. 


Изменение топологии влияет на доступность данных. Отсюда сложности с 
масштабированием и переходом в облако. 


Не всегда просто бъединять данные между различными системами. 
ЕТЕ. 


Бата ГаКе: 


е Нет транзакций. 
е Нет °спета епогсете!\. 
® Медленно (?) 


Что мы хотим? 


Данные в дешевом хранилище с минимальным дублированием. 

Легкое масштабирование в облаке и оп-ргеттзе. 

Более высокое качество данных за счет транзакций и зсНета еп?Гогсетег\. 
Не только Ба{сй ргосеззтд, но и интерактивная аналитика. 

Возможность анализировать как можно больше данных через через единый 
интерфейс. 

Доступ через $01. 


Эволюция Вата [аке 


Мар-Ведисе (Н№е), Зрагк Преимущества: 


е® Уогадеи сотрще масштабируются 
независимо. 

® Данные хранятся в открытых форматах. 

® Есть поддержка $О(. 


Проблемы: 


®  Мар-гедисе и ЗрагК не являются 
НЕ оптимальным решением для интерактивной 
Меазюоге 
аналитики. 
Нет транзакций и зспета епГогсетет1. 


З1югаде е Нуе Маазоге может быть узким местом. 
(53, НОР$, 10са!) 


Метаданные 


Эволюция [аа Ёаке: Араспе |себега 


Мар-Ведисе (Нме), Зрагк 


Маазоге 


Транзакции Зспета 
(1себегд) (1себегд) 


Зюогаде 
(53, НОР5, юса!) 


Метаданные 


Араспе |сеБегд переносит управление 
транзакциями и зспета еп!огсете на уровень 
З{огаде, позволяя различным сторонним 
системам безопасно работать с одними и теми 
же данными. 


Проблемы: 


®  Мар-гедисе и ЗрагК не являются 
оптимальным решением для интерактивной 
аналитики. 


Эволюция Ва \\агепоизе: @задогедаеа зюгаде 


Стеепр!ит / СйскНоизе ЗпомМаке / Мейса Еоп 


о 


Шаг 1: отделим ${огаде от сотрще, чтобы масштабировать их независимо. 
Драйверы: $$0 и быстрые облачные хранилища. 


трощии | | зи 


Данные 


Зюгаде ($3, НОР$, |оса!) 


—> 


Эволюция Ша \Л\агепоиз$е: открытые форматы 


Зпом/аке / Мейса Еоп Ргезо / Типо 


Данные 
З1юогаде ($3, НОЕ$, юса!) З1юогаде ($3, НОР$, юса!) 


Шаг 2: заменим проприетарные форматы на открытые. 
Драйверы: развитие колоночных форматов (Рагдиет, ОВС) и $0! -оптимизаторов (ризАдо\/п). 


Эволюция Ша \Л\агепоиз$е: открытые форматы 


Ргез®ю / Типо Ргезо / Типо + 1себегд 


А ое 
Транзакции 
себега) Зспета (серега) 


Зогаде ($3, НОЕ$, оса!) З1юогаде ($3, НОР$, юса!) 


Шаг 3: перенесем управление транзакциями и схемами из СУБД в $огаде. 
Драйверы: Араспе [сеБегд, Араспе Ни, ЭеКа Г акКе. 


[ акепоизе 


Зрак МРР (Ргезо/Типо) 


ай 
Заде 1 “> овк Заде 2 


Нме 
Меазоге 
Транзакции (!1себегд) Эспета (!1себегд) 
Метаданные Данные ($3, НОР$, 10са!) 


Результат: множество движков, каждый из которых заточен под определенные сценарии, которые 
безопасно работают с одними и теми же данными в дешевом распределенном хранилище. 
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Архитектура Ргезю 


ее 


«= 
оно 
тат 


Вичзте$$ й 


&« Маспте 


птеШдепсе Геагпта 


Ргез4о/Тгто — это распределенный $01- 
движок. 


Подключается к источникам данных с 


зовС 
помощью коннекторов: 
Ргезо/Типо ® Озера данных под управлением Нм№е 


Мщаз{оге и Араспе [сеБегд. 
® Хранилища данных: Сгеепр!итт, 


} Соппесог$ 


СИсКНоц$е, Арасйе Ога, Араспе Рто\. 


> 


&7 


®  Реляционные СУБД: Ро$1дге$, Муз, 
ине Огас!е, ЗОЕ Зегуег, МанарВ. 
= е — Нереляционные источники: Саззапага, 


ВЫ ОПР 


2 
= 


МоподорВ В, ВеЧ!, Ка{Ка, ... 
Другие 
системы 


Отдает данные через ВВС. 


Плагины и коннекторы 


Р!идт — набор расширений функционала Ргез1о. 
Соппесог — опциональный компонент плагина, который описывает логику работы 
с источниками данных определенного типа. 
о Пример: Ро$одгез. 
®  Сааод — инстанс коннектора, который работает с конкретным источником. 
о Пример: конкретный инстанс Ро${огез. 


Архитектура: типы узлов 


Соог4татюог: 


® — Получает, планирует и координирует 
запросы. 

® Может выполнять запросы, если стоит 
соответствующий флаг. 

® — При необходимости кластер может 
содержать несколько координаторов. 


3% 


\№огкег 


3% 


: | М/огКег: 
Соогатаюг 


® Выполняет запросы. 


Планирование => Выполнение 


Планирование: парсинг 


О ® Задача: превратить $01 -строку в синтаксическое 
СКОЧР ВУ 


дерево. 
Реализован с помощью АМТЕК. 
См. 59Вазе.44. 


етр.дерё а 


дерма 


ЗЕЁБЕСТ аерф.пате, СоимТ(*) 
ЕКОМ етр, Чере 
МНЕВЕ 


етр.Чер*_14 = дере.1а 
СВОЧР ВУ 4ере.пате 
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Планирование: семантическая валидация 


| ЕЕ ® Задача: определить объекты, участвующие в 

ие — О аАвЫВЫя запросах; убедиться в семантической 
корректности. 

® В отличие от синтаксического анализа, 
семантический анализ не поддается 
автоматизации. Реализован большим количеством 
“спагетти”-кода. 

® Коннекторы определяют, какие объекты доступны 


етр.чер! а \. = системе ({аЫе, со!игпи, ...). 
—. Е = Плагины могут определять дополнительные 


дерыа 
функции. 


ЕЯ е См. Апаутегауа. 
ЕЕ В ЕЯ а 
етр. ЕЕ 14 
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Планирование: трансляция 


АЦИБЩе$ 


СКОЧР ВУ 


етр.4ерё та 


ера 


® Современные планировщики $01 -движков чаще всего работают с реляционным 
представлением. 


® — Ргезо использует реляционное представление: 
о  Эсап, Ргоес®, ЕЁег, Аддгедайоп, от, Зе Ор (Упюп, Мтиз, щегзесу, ... 
е См. РапМоде.ауа, Ке!аЧопР!аппег.ама. 


Планирование: фазы 


ша] 


Орттхея 
р!ап 


р!ап 


Планирование организовано в последовательность шагов. 

На каждом шаге мы получаем на вход один план и производим другой. 
Планирование в Рге${о состоит из примерно 80 шагов. 

См. РапОритег.ауа, Р!апОриптегз{ама. 


Планирование: итеративный оптимизатор 


ша! 


Ориттмея 
р!ап 


р!ап 


КеганиеОриптхег 


® — Оптимизатор принимает начальный план и набор правил, отдает новый план. Работает, пока есть 
возможность применять правила. Не является со${-Базеч. 

® — Правило представлено паттерном и логикой трансформации. Примеры: упрощение выражений, ЯКег 
ризПаом/п, ризАаом/п вычислений в коннектор. 


е См. ЦегаНуеОрттихег.ама. 
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Планирование: |ош огаег 


[АВСО] 


[2] х [АВС] 


[АВ] [СО] [АВС] 


[В] х [А| <сго$$ ]ош> [С] х [АВ] 


[АВ] | [АС] 


<саспеЧ> <сго$$ |о> 


Класс эквивалентности [АВСр] — это все 
возможные перестановки отношений А, В, С, 0. 
Проход вниз: разбиваем классы 
эквивалентности на более мелкие пары: 
[АВСО] -> [АВС] х[Р]. 

Проход вверх: находим оптимальный порядок 
для класса эквивалентности на основании 
стоимости. 

Стоимость — это функция статистик (го\м/ сои\, 
тип, тах, пи! соц, пд\У). 

Для 5сап-операторов статистики 
предоставляются коннекторами. Для 
остальных операторов статистики 
вычисляются с помощью эвристических 
формул. 

См. Веог4ег.)от5$.дама. 
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Планирование: динамические фильтры 


Вийа Оуп. ЕМег | 


Зсап (ей) 
а.ти=10, а.тах=20 


® Идея: посчитать в гипИте предикаты одной стороны от и применить их к другой 
стороне. 
Наибольший выигрыш происходит за счет ризНаомт динамического фильтра в $сап. 


В Ргезо присутствует два типа динамических фильтров: 
[© Локальные — вычисление и применение происходит на одном узле. 
\®) Распределенные — вычисление на координаторе, применение на воркерах. 22 


Планирование: соппесюг ризпаомт 


Зот Зот 
за!ез.сцу 14= сйу. а заез.сцу 19= сйу 19 


Роз{дгез Зсап 
ЗЕЁЕСТ * ЕВОМ дер: 
\ММНЕРЕ пате = 'ЗРВ' 


Рег Рагаце{ Зсап 
Дае = 2022-10-29 /4а{а/5а!е5/2022-10-29 


Рагдие{ 5сап Ро${дге$ Зсап 
/Ча{а/заез ЗЕЁЕСТ * ЕВОМ дер: 


® — Коннекторы могут предоставлять свою логику для организации ризПдо\мт: 
о  Н\№\е;: АКег ризНаомт, рай юоп ргиптд, рагЧа! аддгедайоп (напр. МИМ/МАХ). 
о УОВС: можно запушить практически все, что угодно. 


См. СоппесогР!апОрипттегРгом ег (Ргез\о), СоппесюгМеадата (Типо) 23 


Выполнение: Заде$ 


Весеме 


Заде 1 Заде 2 


е Координатор разделяет логический план на последовательность $адез. 
® З{аде — это последовательность операторов, которые могут быть выполнены 


локально на воркере. 
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Выполнение: МРР у$ МК 


Маззме РагайЕ! Ргосеззта (Рге${о) Мар-гедисе (Надоор, ЗрагК) 


Весеме 


Заде 1 Заде 2 


® — МРР — данные передаются по сети, хранятся в памяти. 
{®) Быстро, но может не хватить памяти, хуже отказоустойчивость. 
® МК — данные передаются через персистентное хранилище. 
о  Медленнее, но можно обрабатывать очень большие объемы. 
е  Ргез1о — это МРР с зачатками МВК: 
{®) Умеет сбрасывать данные на диск, но не делает этого по умолчанию. 
о Инициатива Ргез1о-оп-брагК. 25 


Выполнение: Тазк 


Весеме Зсап В Весеме 
` 


Е. ыы ` 


Соог4таюг 


Заде — это “шаблон” фрагмента запроса. У каждого Заде есть набор источников данных. 


Та$К — это инстанс з{аде на конкретном узле. Координатор определяет, на каких узлах 


выполнять $Таде в зависимости от требований источников данных 
26 


Выполнение: Эри 


\Логкег 1 \Л/огкег 2 


Рагаце{ $сап Рагаце{ $сап 


ЕЕ ее [8 


5рИ$ 5рИ$ 


АА 


Нме 


Эр — это часть данных источника. Каждый 
источник данных представлен конечной 
последовательностью ЗрИГов. 


е Таблицы Н№е разбиваются по файлам и 
частям файлов. 

е  ОВС-источники всегда состоят из одного 
сплита, представляющего собой гезий 5 
выполнения запроса. 


См. СоппещогорМападег, Соппестог®риИ. 
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Выполнение: Раде 


Операторы получают и производят Раде — набор кортежей в 
колоночном формате. 


Раде Каждый атрибут представлен объектом Воск, который 


полностью инкапсулирует доступ к данным по индексу. 
Пример ТлЕАггауВ1оск: 
ГОМ/ 
сочпе е 100[] — массив значений. 
® роо1[] — маркер МИН. 


См. Раде, Воск. 
а Ноа У 


Боск Боск Боск 
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Выполнение: ризп 


Ргез{о реализует неблокирующую ризН-модель выполнения: 


®  Эошгсе-оператор получает зр(ы). 
е® Оператор производит Раде. 
® Раде передается следующему оператору (ризП). 


Создание и поглощение раде’ей отделено друг от друга: 


® Оператор может быть не готов произвести Раде. 
Например, Зо“ еще не получил все входные данные. 

® Оператор может быть не готов принять Раде. Например, 
Назй от не принимает данные из ргобе-стороны, пока не 
получены все данные из БиЙа-стороны. 


Эр 
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Выполнение: управление памятью 


Многоуровневое управление памятью: 


® — Лимит на уровне узла. 


Г ® — Лимит на уровне запроса. 
РесаитаЫе УР р 


Метогу Операторы используют Расе не только для обмена данными, 
но и для внутреннего состояния: 


® — Хэш-таблицы. 


® — Сортированные структуры. 


ЗрИЙпо: 


® — По умолчанию при достижении лимита памяти запрос 
будет отменен. 

® — Операторы могут запрашивать память сверх 
доступного для запроса лимита. При необходимости 


В- эта память будет освобождена путем выгрузки данных 


на диск. 
30 


Выполнение: компиляция 


НазВАдогеданоп 


Тог гом 1п раде: 
// Найти группу по ключу 
1пЕ Вазб = Пазй (гом) 
бгоир гомбгоир = пи 1 


Тог дгоир 1п дгоир$ [паз]: 


1Р едча1(дгоир, гом): 
гомбгоир = дгочцр 
Ьгеак 


// Обновить агрегаты 
гомбгочцр . сопзите ( гом) 


БазН (пцегргаеа) 


1пЕ Вазй = 0; 
Рог 14х : со|1итп$: 
1 Еуре[19х] 1$ ТпЕ: 
Вазп = 1пЕНа$зП(пазй, гом, 194х); 
е15е 1Р уа1ие 1$ 5Ег1пд: 
Пазй = зегНазй(Пазй, гом, 194х); 


Вазв (сотр!еа) 


зЕгНазй (пазй, гом, 2); 
1пЕНазй (пазй, гом, 3); 


Интерпретируемый код 
вносит накладные 


расходы: 
Циклы. 
е Условные 
переходы. 
® Виртуальные 
вызовы. 


Скомпилированный код 
позволяет избавиться от 
значительной части 
накладных расходов. 
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Выполнение: компиляция 


® Операторы содержат указатели на функции. Например: 
о Рго]есЕ1оп/Е11Еег-— вычисление выражений. 
о Ааагедаетоп — вычисление аккумуляторов. 
о Фо1лп — вычисление фильтров. 
® Функции компилируются с помощью АЗМ в процессе выполнения 


запроса, используя информацию о конкретном операторе. 
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Использование Рге о 


е Подключение к любому $3- 
совместимому оШес{ 
Зтогаде через $3 Надоор 
Е|езу ет. 

е Подключение к другим 
источникам данных через 


х х / ОВС. 


О |. <> <> ® Объединение данных из 
| (& | < < задействованных 


Операционные данные Исторические данные Озеро данных ИСТОЧНИКОВ 
Роюгез, МУЗОЁЕ Сгеепр!ит, СискНоизе Уапдех Сючца, Мп! у 


Кластер Ргезфо / Тгто Кластер Ргез® / Типо 
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® 1акепои$е — это набор подходов и технологий для совместной обработки больших 
объемов данных в файловых хранилищах из разных движков. 
®  Ргезо/Тито — это распределенная МРР-система, которая выполняет $01-запросы, но 
не хранит данные (зВаге4 зогаде). 
® Ргезо/Типо имеет коннекторы к ключевым системам и технологиям [1аКепоизе-стека и 
не только: 
о НОЕби 53. 
о ОВС и Рагача. 
о Н\е Мщафоге и Араспе |сеБегод. 
о ОШАР: Сгеепритп, СйскНоизе. 
о ОПР: Ро$гез, МузОЕ. 
е Попробовать: 


о  Ргезо: НИрз://ргезфюаЬ.1ю/ 
о Тито: В 4рз://Аито.ю0/ 
о  СедгизВаа: ИИрз://\мммим. сеагизда*а.ги 34 


| Обратная связь 
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